多媒体可信感知与高效计算教育部重点实验室三十一篇论文被AAAI 2025录用

2024年12月17日 14:03 点击:[]

近日,国际人工智能顶级会议AAAI 2025论文录用结果揭晓,厦门大学多媒体可信感知与高效计算教育部重点实验室共有31篇论文被AAAI 2025录用。

AAAI是由国际人工智能促进协会主办的年会,是人工智能领域中历史最悠久、涵盖内容最广泛的国际顶级学术会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议,每年举办一届。AAAI 2025将于2025年2月25日- 3月4日在美国宾夕法尼亚州费城举办本届AAAI会议共有12957篇有效投稿,录用3032篇,录取率为 23.4%。


1. Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference

简介:本文提出了一种即插即用的模块(VTW),旨在加速多模态大语言模型(MLLMs)的推理过程。VTW 的设计灵感来源于以下两点关键观察:1)注意力下沉现象:在大语言模型(LLMs)中普遍存在的注意力下沉(Attention Sink)现象同样出现在多模态大语言模型(MLLMs)中。2)信息迁移现象:VTW 首次发现并验证了视觉令牌(visual tokens)携带的信息会在 MLLMs 的前几层迁移到后续的文本令牌中。推断视觉令牌在 MLLMs 的深层网络中并非必需。据此,我们创新性地提出在模型的特定层提前移除视觉令牌,以减少计算开销。实验结果表明,VTW 在各种多模态任务和对话机器人场景中,能够显著提升 MLLMs 的推理效率,同时保持性能不受影响。

该论文第一作者是厦门大学信息学院人工智能系2024级博士生林志航,通讯作者是纪荣嵘教授,由林明宝(新加坡Skywork AI 2050研究院)、2024级硕士生林卢希共同合作完成。

2. Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing

简介:当前常采用反演、重建和编辑的三分支结构的方法来解决一致的图像编辑任务。然而,这些方法缺乏对编辑对象的生成位置的控制,并且在背景保持方面存在问题。为了克服这些限制,本文提出了一种只有反演和编辑两个分支的免微调方法。该方法允许用户同时编辑对象的动作并控制编辑对象的生成位置。此外,本文还实现了更优的背景保持,即在反演过程中的特定时间步将被编辑对象的信息传输到目标区域并修复或保持其他区域的背景。编辑阶段,在自注意力机制中使用图像特征来查询反演过程中对应时间步的键和值,以实现一致的图像编辑。定性的图像编辑结果和定量的评估实验证明了本文方法的有效性。

该论文第一作者是厦门大学信息学院2023级硕士生蒋鹏飞,通讯作者是晁飞副教授,由林明宝(新加坡Skywork AI 2050研究院)共同合作完成。


3. Memory-reduced Meta-learning with Guaranteed Convergence

简介:基于优化的元学习方法因其利用少量数据快速适应新任务的独特能力而受到越来越多的关注。然而,现有的基于优化的元学习方法,如MAML、ANIL及它们的变体方法,通常直接使用反向传播来进行上层(超)梯度估计。由于需要存储和使用历史下层参数或者梯度,导致在每次迭代中都增加了计算和内存开销。本文提出了一种元学习算法,与现有的基于优化的元学习方法相比,在超梯度估计中避免了使用历史参数或梯度,并显著减少每次迭代所需的内存成本。本文证明了所提出的算法可以实现随上层优化的迭代次数以次线性速度收敛,并且收敛误差随采样任务的批量大小以次线性速度衰减。在确定性元学习的情况下,本文证明了所提出的算法可以收敛到一个精确解。本文量化了该算法的计算复杂度为,该复杂度与现有的元学习方法收敛结果相匹配,但本文提出的算法并不需要使用任何历史参数或者梯度。最后,在元学习基准数据集上的实验结果验证了所提出算法的有效性。

该论文第一作者是厦门大学航空航天学院自动化系2023级博士生杨宏林,通讯作者是航空航天学院自动化系马骥助理教授,合作作者是人工智能研究院喻骁教授。


4. IPDN: Image-enhanced Prompt Decoding Network for 3D Referring Expression Segmentation

简介:三维指向性目标分割(3D-RES)的目的是基于给定的文本描述对点云场景进行分割。然而,现有的3D-RES方法面临着两个主要的挑战:特征模糊和意图模糊。特征模糊是由于照明和视角等限制,在点云采集过程中存在信息丢失或失真而引发的。意图模糊是指模型在解码过程中对所有查询的平等处理,缺乏自上而下的任务特定的指导。本文引入了一种图像增强的提示解码网络(IPDN),它利用多视角图像和任务驱动信息来增强模型的推理能力。为了解决特征模糊问题,本文提出了多视角语义嵌入模块,该模块将多视图二维图像信息注入到三维场景中,并补偿潜在的空间信息损失。为了解决意图模糊问题,本文设计了一个提示感知解码器,它通过从文本和视觉特征之间的交互中获得任务驱动的信号来指导解码过程。综合实验表明,IPDN在3D-RES和3D-GRES任务上的mIoU指标上分别比目前最先进的模型高1.9和5.4个点。

该论文共同第一作者是厦门大学信息学院人工智能系2023级硕士生陈琦和2024级博士生吴昌鲡,通讯作者为博士后研究员纪家沂,由2023级博士生马祎炜、2022级硕士生杨丹妮以及孙晓帅教授共同合作完成。


5. Fit and Prune: Fast and Training-free Visual Token Pruning for Multi-modal Large Language Models

简介:多模态大语言模型(MLLMs)虽然发展迅速,但存在视觉信息冗余和计算成本高的问题。通过观察发现模型中存在大量冗余的视觉标记,本文提出 FitPrune 方法,该方法将视觉标记修剪任务视作注意力分布拟合问题,通过统计来确定最优策略,推理时依据统计得到的策略进行标记剪枝。 在10 个基准数据集上的实验结果显示 FitPrune 方法能大幅降低计算复杂度的同时保持性能不变,如在 LLaVA-NEXT数据集上减少 54.9% FLOPs 而准确率仅降 0.5%,这相比于其他方法优势明显。本文还通过消融实验验证该方法的有效性和鲁棒性。实验证明,FitPrune 为 MLLMs 优化提供了实用且高效的方案,降低模型运行开销且易部署,有助于视觉-语言任务的发展。

该论文第一作者为厦门大学人工智能研究院2023级硕士生叶伟豪,通讯作者是周奕毅副教授,由2022级博士生吴穹、2024级硕士生林文浩共同合作完成。


6. StoryWeaver: A Unified World Model for Knowledge-Enhanced Story Character Customization

简介:故事可视化任务指的是给定一段故事文本和故事中出现的角色图片,模型逐句生成包含指定角色的图像来描绘故事的发展。现有方法存在图像与文本语义匹配度不高、角色定制化效果差、多角色交互图像生成质量差等问题。基于此,本文提出一个统一的世界模型(StoryWeaver),通过角色定制化实现高质量的故事可视化。本文首先提出一种知识增强的角色图谱,用于表示故事世界中具有丰富语义的角色、事件及其对应属性的信息,再将故事场景图结构化地表示为角色图谱的文本表达形式。模型在知识增强后的文本上进行训练,实现高保真的角色定制化效果。此外,为了解决多角色交互图像生成中的身份混淆问题,本文提出了一种基于角色知识感知的空间引导方法,该方法利用可训练的知识编码器对扩散模型图像生成中的交叉注意力矩阵进行修正,以纠正文本注意力在图像上的错误分配。为了验证模型性能,本文提出一个新的基准数据集TBC-Bench。 在该基准数据集上的实验结果表明,StoryWeaver在单个角色和多角色故事可视化任务中,均能实现更优的角色定制化和文本语义匹配效果。

该论文的共同第一作者是厦门大学信息学院人工智能系2024级博士生张金璐和网易伏羲实验室研究员唐霁霁,通讯作者是孙晓帅教授,由张荣升(网易伏羲)、吕唐杰(网易伏羲)共同合作完成。

7. BUFF: Bayesian Uncertainty Guided Diffusion Probabilistic Model for Single Image Super-Resolution

简介:超分辨率(SR)技术对于提高图像质量至关重要,尤其是在需要高分辨率图像但又受到硬件限制的情况下。现有的超分辨率扩散模型主要依赖高斯模型来生成噪声,但在处理自然场景中固有的复杂多变的噪声时,高斯模型往往显得力不从心。为了解决这些不足,本文引入了贝叶斯不确定性引导扩散概率模型(BUFF)。BUFF 的与众不同之处在于它结合了贝叶斯网络来生成高分辨率的不确定性掩码。这些掩码为扩散过程提供指导,允许以一种上下文感知和自适应的方式调整噪声强度。这种新颖的方法不仅提高了超分辨图像与原始高分辨率图像的保真度,还显著减少了以复杂纹理和精细细节为特征的区域的伪影和模糊。该模型对复杂噪声模式表现出卓越的鲁棒性,并在处理图像中的纹理和边缘方面展现出超强的适应性。由视觉结果支持的经验证据说明了该模型的鲁棒性,尤其是在具有挑战性的场景中,以及在解决模糊等常见 SR 问题方面的有效性。在 DIV2K 数据集上进行的实验评估显示,BUFF 实现了显著的改进,在 BSD100 上的 SSIM 与基线相比提高了 +0.61,超过了传统的扩散方法,平均多提高了 +0.20dB PSNR。这些发现强调了贝叶斯方法在增强 SR 扩散过程中的潜力,为该领域未来的发展铺平了道路。

该论文的第一作者是厦门大学人工智能研究院2022级硕士生何子豪,通讯作者是张岩工程师,由张声传助理教授等共同合作完成。

8. TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning

简介:现有提示学习方法主要以在所有类别中共享的粗粒度的方式学习下游任务的提示,从而实现将视觉-语言模型迁移。这些类间共享的提示通常难以识别特定类别的细粒度视觉概念,从而影响了提示在具有相似视觉属性任务上的泛化性能。现有方法通过利用大型语言模型的外部知识来生成细粒度的类别描述,补充视觉概念,从而缓解这一问题。但其代价是显著增加了推理成本,同时需要复杂的模块来保证外部知识和下游分布对齐。本文提出了一种即插即用的组件TextRefiner,通过利用VLM的内部知识来补充现有文本提示的细粒度视觉概念信息。配备 TextRefiner 后,PromptKD 实现了最先进的性能,超过了依赖外部专家的 LLaMP,性能。此外,TextRefiner 展现出了极高的推理效率,CoCoOp推理速度为20.45 FPS,LLaMP推理速度为1473.46 FPS,而搭载 TextRefiner 的 PromptKD 则达到了 12793.26 FPS。

该论文第一作者是厦门大学信息学院计算机系2023级硕士生谢晶晶,通讯作者是曹刘娟教授,由2021级博士生张玉鑫、2019级博士生彭军、2023级硕士生黄钊宏共同合作完成。

9. K-hop Hypergraph Neural Network: A Comprehensive Aggregation Approach

简介:超图神经网络(HGNNs)能够建模多个数据样本之间高阶关系,然而现有超图神经网络面临着过挤压和过平滑的问题。本文提出一种新颖的K跳超图神经网络(KHGNN),该方法通过引入远距离节点和超边之间交互缓解以上问题。具体来说,采用基于HyperGINE的二分嵌套卷积提取来自沿节点或超边之间的所有最短路径上的节点、超边和结构信息作为路径特征,从而提供远距离关系的表示。借助全面的路径特征,超图神经网络的节点和超边能够聚合远距离信息,提高了神经网络表示能力。在标准数据集,特别是在长距离图数据集上的实验结果表明,本文提出的方法超过了现有主流的超图神经网络和图神经网络,取得了最优的学习性能。

该论文第一作者是厦门大学信息学院2022级硕士生谢林煌,通讯作者是金泰松副教授,由2022级硕士生高世豪等共同合作完成。


10. Dynamic Clustering Convolutional Neural Network

简介:卷积神经网络一直在计算机视觉领域中占据重要地位。然而,目前流行的卷积神经网络通常依赖于局部窗口建模,限制了其捕捉图像中长距离依赖关系的能力。为了解决这些局限性,本文提出了一种新颖的卷积神经网络架构——动态聚类卷积神经网络。该方法通过全局聚类将具有相似语义的图像块分组为簇,然后使用共享卷积核对这些簇进行卷积。为了解决全局聚类的高计算复杂性,该方法从每个图像块的子空间中提取特征向量来进行高效聚类,从而使得该模型能够广泛适配于各种下游视觉任务。在基准数据集上的图像分类、目标检测、实例分割和语义分割的大量实验表明:本文所提的方法在性能上优于主流的卷积神经网络、视觉Transformer、视觉多层感知机、视觉图神经网络以及视觉Mamba。。

该论文第一作者是厦门大学信息学院2024级博士生李谭哲,通讯作者是金泰松副教授,由张宝昌教授(北京航空航天大学),郑侠武副教授等合作完成。

11. CAKE: Category Aware Knowledge Extraction for Open-Vocabulary Object Detection

简介:本文提出了一种用于开放词汇目标检测的类别感知知识蒸馏方法。该方法包括两个模块:类别泛化区域提议网络(CG-RPN)和类别特定知识蒸馏分支(CSKD),能够显著提高检测器对于未见类别的零样本泛化能力。CG-RPN通过利用CLIP的高质量特征构建特征集用于区分前景和背景提议,提高了检测器在新类别上的召回率;CSKD则拉近相同类别物体的聚类中心,有利于检测器学习到类别特定的语义知识。CAKE在开放词汇目标检测相关benchmark上达到了新的最佳性能。

该论文第一作者是厦门大学人工智能系2023级硕士生马世元,通讯作者是张声传助理教授,由2023级硕士生钱东麟,2024级博士生叶锴共同合作完成的。


12. What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph

简介:多模态大语言模型(MLLMs)在处理视觉-语言(VL)任务时,通常使用大量的视觉标记来弥补其视觉处理的不足,但这也导致了计算开销的增加和视觉冗余问题。现有方法虽然通过增加图像分辨率和视觉标记数量提升了视觉推理能力,但往往伴随过多冗余信息,尤其在一些精细任务(如TextVQA)中,过多的视觉标记反而可能影响模型表现。基于此,本文提出了一种基于图的视觉标记修剪方法(G-Prune),旨在通过有效选择关键的视觉标记来减少计算负担并提升模型效率。本文首先通过分析不同类型的视觉标记在多模态推理中的重要性,发现前景和背景标记对MLLMs都是至关重要的,尤其在任务难度不同的情况下,两者的作用各有不同。基于这一观察,本文提出了一种将视觉标记视为图节点,并根据其语义相似度构建连接的图方法。通过迭代的信息传播算法,模型能够自动更新每个标记的重要性,最终保留对任务最有贡献的标记,从而减少冗余计算。为了验证G-Prune的有效性,本文将该方法应用于多模态大语言模型LLaVA-NeXT,并在多个基准数据集上进行了广泛的实验。实验结果表明,G-Prune能够显著降低计算开销,同时在多个视觉-语言任务中保持高性能。

该论文的共同第一作者是厦门大学信息学院人工智能系2023级研究生蒋雨涛和人工智能研究院2022级博士生吴穹,通讯作者是周奕毅副教授,由2024级硕士生林文浩、2022级硕士生余薇共同合作完成。

13. Feature Denoising Diffusion Model for Blind Image Quality Assessment

简介:盲图像质量评价(BIQA)旨在在没有参考基准的情况下,对图像质量进行符合人类感知的评价。目前,深度学习BIQA方法通常依赖于使用来自高层任务的特征进行迁移学习。然而,BIQA与这些高级任务之间的固有差异不可避免地将噪声引入到质量感知特征中。本文初步探索了BIQA任务中用于特征去噪的扩散模型,即感知特征扩散IQA方法(PFD-IQA),旨在从质量感知特征中去除噪声。具体来说,1)提出一种感知先验发现和聚合模块,建立两个辅助任务,以发现图像中潜在的低层特征,用于为扩散模型聚合质量感知的文本条件。2)提出一种感知条件特征细化策略,将噪声特征与预定义的去噪轨迹进行匹配,然后基于质量感知的文本条件进行精确的特征去噪。通过合并一个轻量级去噪器,并且只需要几个特征去噪步骤,所提出方法在多个标准BIQA数据集上表现出优越的性能。

该论文第一作者是厦门大学人工智能研究院2023级硕士生李旭东,通讯作者是张岩工程师,由胡润泽副研究员(北京理工大学),郑侠武副教授等共同合作完成。

14. EOV-Seg: Efficient Open-Vocabulary Panoptic Segmentation

简介:开放词汇全景分割旨在对任意词汇表中不同场景的所有物体进行分割。现有方法中两阶段框架通常使用掩码生成器生成的掩码多次裁剪图像,然后进行特征提取,而单阶段框架依靠重量级掩码解码器通过多个堆叠的 Transformer 块中的自注意力和交叉注意力来弥补空间位置信息的不足。这两种方法都会产生大量的计算开销,从而阻碍模型推理的效率。为了填补效率方面的空白,本文提出了一种新颖的单阶段、共享、高效的框架,并引入两个将基线提升到强大的EOV-Seg框架的优雅设计。首先,本文提出了一个词汇感知选择模块来提高对视觉聚合特征的语义理解并减轻掩码解码器上的特征交互负担。其次,本文引入了双向动态嵌入专家,它有效地利用了基于 ViT 的 CLIP 主干网络的空间感知能力,使用权重分配路由器动态分配嵌入专家权重,以生成具有语义感知和空间感知的实例嵌入,用于掩码识别。据我们所知,EOV-Seg 是第一个面向效率的开放词汇全景分割框架,与最先进的方法相比,它运行速度更快,性能更具竞争力,实现了速度与性能的最佳权衡。

该论文第一作者是厦门大学人工智能研究院2023级硕士生牛鸿伟,通讯作者是张声传助理教授,由胡杰(新加坡国立大学博士后研究员)、2023级博士生林将航、江冠南(宁德时代)共同合作完成的。

15. Exploring Semantic Consistency and Style Diversity for Domain Generalized Semantic Segmentation

简介:域泛化语义分割 (DGSS) 旨在利用源域数据增强跨未知目标域的语义分割泛化。当前的研究主要集中在特征归一化和域随机化,这些方法表现出明显的局限性。基于特征归一化的方法在约束特征空间分布的过程中往往会混淆语义特征,导致分类误判。基于域随机化的方法由于风格转换的不可控性,经常会包含与领域无关的噪声,从而导致分割模糊。为了应对这些挑战,本文引入了一个用于语义一致性预测和风格多样性泛化的新颖框架,名为 SCSD。它包含三个关键组件:首先,语义查询增强器旨在增强掩码解码器中对象查询的语义感知和辨别能力,实现跨域语义一致性预测。其次,本文提出了一个文本驱动的风格转换模块,利用域差异文本嵌入可控地引导图像特征的风格转换,从而增加域间风格多样性。最后,为了防止相似域特征空间的崩溃,本文引入了一种风格协同优化机制,通过协同加权风格对比损失和风格聚合损失来强化域间特征的分离和域内特征的聚合。大量实验表明,所提出的 SCSD 明显优于现有的最先进方法。

该论文第一作者是厦门大学人工智能研究院2023级硕士生牛鸿伟,通讯作者是张声传助理教授,由2022级硕士生谢林煌、2023级博士生林将航共同合作完成的。

16. Text to Point Cloud Localization with Multi-Level Negative Contrastive Learning

简介:基于自然语言的定位可使智能体通过语言理解空间位置,现有方法依赖对比学习在文本和点云的全局特征间建立对应关系。然而,语言的固有模糊性导致其难以准确描述场景几何。为此,本文提出将语言作为一种过滤器,设计了一种多层次负对比学习的鲁棒框架以充分利用多粒度定位线索来区分不同位置。在KITTI360Pose基准数据集上的大量实验表明,该方法展现出优异的性能。


该论文第一作者是厦门大学信息学院2023级博士研究生刘敦强,通讯作者是王程教授。由黄舒俊、李文、沈思淇长聘副教授等共同合作完成。

17. A New Adversarial Perspective for LiDAR-based 3D Object Detection

简介:为了解决自动驾驶车辆在复杂环境下的感知安全性和可靠性,本文提出了一个包含水雾和烟雾的真实激光雷达点云数据集,并提出一种利用水雾和烟雾模拟环境干扰的新颖攻击框架。本文使用基于运动和内容分解的生成对抗网络来模拟随机性物体的分布,并生成序列点云,然后使用Range Image模拟LiDAR扫描特性。实验验证了不同浓度的随机性物体在车辆目标的不同位置的干扰效果,有效地伪装了车辆目标并降低了物体检测模型的性能。

该论文第一作者是厦门大学信息学院2021级博士研究生郑世均,通讯作者是王程教授、刘伟权副教授(集美大学)。由郭宇、臧彧副教授、沈思淇长聘副教授等共同合作完成。


18. ConDo: Continual Domain Expansion for Absolute Pose Regression

简介:绝对位姿回归(APR)是场景相关的视觉定位方法,将输入图像映射到已知场景下的绝对位姿。本文提出 Continual Domain Expansion (ConDo) 方法,通过持续收集无标签推理数据,动态更新已部署的 APR网络。ConDo用场景无关的定位教师模型提取无标签数据中的知识并高效学习,通过结合历史数据和新数据,该算法能显著提升 APR 的泛化能力。实验表明,ConDo 在不同定位网络、场景类型和场景变化下性能均显著优于基线方法,且在计算成本、内存大小和教师网络类型等方面具备较强的鲁棒性。

该论文第一作者是厦门大学信息学院2022级博士研究生郦子俊,通讯作者是王程教授、蔡志鹏博士(Intel)。由杨博淳、沈雪仑、沈思淇长聘副教授、范晓亮高级工程师和Michael Paulitsch博士(Intel)等共同合作完成。



19. STGC-NeRF: Spatial-temporal Geometric Consistency for LiDAR Neural Radiance Fields in Dynamic Scenes

简介:神经辐射场(NeRFs)在使用LiDAR数据进行动态场景的新视角合成(NVS)方面的表现仍然受限。由于LiDAR点云具有低频和稀疏的特性,从带有位姿的扫描数据中自发学习动态且一致的场景表示具有挑战性。该论文提出了一种新颖的LiDAR NeRF方法——STGC-NeRF,通过结合时空几何一致性来增强动态场景的重建能力。在KITTI-360和nuScenes数据集上的大量实验表明,STGC-NeRF在动态LiDAR场景重建的几何和强度精度方面均优于现有最先进的方法。

该论文第一作者是厦门大学信息学院2018级博士于尚书(现南洋理工大学),通讯作者是王程教授。是由南洋理工大学等合作共同研究取得的成果。


20. Seg2Box: 3D Object Detection by Point-Wise Semantics Supervision

简介:基于激光雷达的三维目标检测和语义分割是三维场景理解的关键任务。然而传统的检测和分割方法通过边界框和语义掩码标签分别监督各自模型,存在大量的标注冗余。为此,本文提出了一种仅使用点级语义分割标签监督的三维目标检测方法-Seg2Box。本文首先引入了多帧多尺度聚类模块,利用点云的时空一致性来生成准确的框级别伪标签。然后,提出了语义导向-迭代挖掘自训练模块,通过逐步优化伪标签和挖掘漏标注的实例来提高模型性能。在Waymo Open Dataset数据集和nuScenes数据集上的实验表明,本文的方法在mAP上显著优于其他有竞者力的方法23.7%和10.3%。

该论文第一作者是厦门大学信息学院2022级硕士研究生郑茂基,通讯作者是温程璐教授。由许梓谕、夏启明、吴海、王程教授等共同合作完成。


21. AdaCo: Overcoming Visual Foundation Model Noise in 3D Semantic Segmentation via Adaptive Label Correction

简介:本文提出了一种自动驾驶场景下基于无标签学习的点云语义分割方法-Adaco,利用二维视觉基础模型组合生成像素级语义标注(无任何点云初始标注),在传递至点级别监督的同时设计自适应鲁棒网络降低对噪声标注的拟合,有效降低户外点云语义分割网络的标注成本。在SemanticKITTI 和 nuScenes 两个自动驾驶数据集上的大量实验表明,Adaco方法的性能优于现有baseline方法。

该论文第一作者是厦门大学信息学院2022级硕士研究生邹普凡和2023级博士生赵世佳,通讯作者是温程璐教授和嬴彻科技李伟。由夏启明、王程教授等共同合作完成。



22. L4DR: LiDAR-4DRadar Fusion for Weather-Robust 3D Object Detection

简介:基于LiDAR的三维目标检测方法在恶劣天气条件下的性能会受到严重影响,将LiDAR与天候鲁棒的4D Radar传感器融合有期望能够解决这一问题。为此,本文提出L4DR方法,首先使用多模态编码和前景感知去噪模块来调和传感器间的差距。其次,L4DR还包含一个跨模态和模态内的并行特征提取主干,结合多尺度门控融合模块,以应对不同传感器在恶劣天气条件下差异退化程度。在模拟雾的VoD数据集和真实世界K-Radar数据集上的实验评估证明,L4DR更能适应变化的天气条件,带来雨、雪、雾等恶劣天候下更鲁棒的检测性能。

该论文第一作者是厦门大学AI研究院2024级博士研究生黄勋,通讯作者是温程璐教授。由许梓谕、夏彦(慕尼黑工大)、Kyle Gao(滑铁卢大学)、王程教授等共同合作完成。





23. Interpretable Solutions for Multi-Physics PDEs Using T-NNGP

简介:多物理场仿真技术是一种通过模拟真实世界中多个物理场(如流体流动、传热、结构力学、电磁场等)的相互作用,来预测和理解复杂物理现象的方法。偏微分方程组(A System of Partial Differential Equations, PDEs)是物理学中用来描述各种物理现象的基本工具,它们能够捕捉到物理场在空间和时间上的变化,以及不同物理场之间的相互作用。求解偏微分方程组是多物理场仿真的核心问题。目前求解偏微分方程组的方法得到的解,往往是离散的数值点,这在一定程度上限制了结果的可解释性和广泛适用性。本文针对这一挑战,提出了一种混合遗传编程算法T-NNGP,该算法融合了传统数值方法和深度学习技术,旨在推导出偏微分方程组中多个未知函数的近似符号表达式。T-NNGP的工作流程分为三个阶段:首先,利用传统方法获取部分数值解作为数据集;接着,通过深度强化学习技术生成一系列候选符号表达式;最后,运用遗传规划方法基于这些候选符号表达式进行更进一步的筛选和优化。此外,本文还引入了通用解耦策略,该策略能够指导搜索方向并有效解决耦合问题,从而显著提升搜索效率。本文在三种不同类型的偏微分方程组上进行了实验,实验结果不仅证明了该方法能够获得与偏微分方程组和传统数值解相匹配的符号表达式,还为多物理场仿真技术的发展提供了新的见解。

该论文第一作者是厦门大学信息学院2021级硕士研究生曹璐璐,通讯作者是江敏教授。该研究成果是与2023级硕士研究生林泽鑫、香港理工大学的陈家进教授共同合作完成的。

24. MaskViM: Domain Generalized Semantic Segmentation with State Space Models

简介:域泛化语义分割 (DGSS) 旨在利用在已知源域上训练的分割模型对未知目标域进行预测。目前,有两种网络架构:一种基于卷积神经网络 (CNN),另一种基于视觉变换器 (ViT)。然而,基于CNN和基于ViT的DGSS方法都面临挑战:前者缺乏全局感受野,而后者需要更多的计算需求。受到状态空间模型 (SSM) 启发,SSM不仅具有全局感受野,而且还保持线性复杂度,我们提出了基于SSM的方法来实现DGSS。在该工作中,我们首先阐明了为什么掩码在基于SSM 的 DGSS 中是有意义的,并提出了我们的掩码学习机制。利用这一机制,我们提出了Mask Vision Mamba网络 (MaskViM),这是一个基于 SSM 的 DGSS 模型,并设计了掩码损失来优化 MaskViM。我们的方法在四种不同的 DGSS 设置上实现了卓越的性能,证明了我们方法的有效性。

该论文第一作者是厦门大学信息学院计算机科学与技术系2023级博士生李佳豪,通讯作者是其导师曲延云教授和谢源教授(华东师范大学),目前主要研究方向为多模态感知的复杂开放场景理解。

25. Omni-Query Active Learning for Source-Free Domain Adaptive Cross-Modality 3D Semantic Segmentation

简介:无源域自适应(Source-Free Domain Adaptation, SFDA)旨在无需访问源数据的情况下,将预训练的源模型迁移到未标注的目标域,从而有效解决标注数据依赖和域偏移问题。然而,由于缺乏监督信息,SFDA的应用面临瓶颈。为缓解这一问题,本文引入主动学习(Active Learning, AL)与SFDA结合,旨在主动标注一小部分高质量目标点,以较低成本获得性能令人满意的模型。尽管如此,仍有若干问题未解决:训练过程中何时查询新的标签、哪些样本值得标注以确保信息丰富性,以及标签应如何分布以保证多样性。因此,本文提出了ActiveSFDA,从全方位解决无源域自适应在跨模态3D语义分割中关于“何时、何种样本、何处”的主动点查询问题。该方法包括三个主要组件:查询决策器、点排序器和预算分配器。查询决策器通过拟合训练过程中的验证曲线,确定查询新点的最佳时机;点排序器通过计算特征空间中邻近点的模糊性,以提名样本点;预算分配器利用先进的2D语义分割模型SAM的能力,将标注配额分配至不同的语义区域。大量实验验证了本文方法的有效性,仅使用3%的标签即可达到99.64%的全监督性能,并在多个场景下优于对比方法。

该论文的第一作者是厦门大学信息学院2023级硕士生谢健祥,通讯作者是其导师曲延云教授和华东师范大学谢源教授,由信息学院2021级博士生吴垚、张亚超助理教授、师忠超(联想研究院)、范建平(联想研究院)共同合作完成。


26. AGLLDiff: Guiding Diffusion Models Towards Unsupervised Training-free Real-world Low-light Image Enhancement

简介:低光照图像增强(LIE)方法虽然在解决合成失真问题上取得了一定的成功,但在实际应用中仍然存在显著的不足。这些局限性主要来自于两个固有挑战:1)失真/清晰图像对的收集通常较为困难,有时甚至不可获得;2)精确建模复杂退化过程是一个极具挑战性的问题。为此,我们提出了一种基于属性引导的扩散框架(AGLLDiff),这是一种无需训练的有效低光照图像增强方法AGLLDiff 通过建模图像的目标属性(如正常光照图像的曝光、结构和颜色),而非具体定义退化过程,实现范式的全新转变。这些属性信息易于获取且对退化过程不作任何假设,从而能够有效引导扩散采样过程,进入可靠且高质量的解空间。通过广泛的实验验证,结果表明,该方法在失真度量与感知度量上全面优于现有的主流无监督LIE方法,同时在复杂实际退化场景中展现出卓越的性能。

该论文第一作者是厦门大学信息学院信息与通信工程系2023级硕士生林云龙和香港科技大学(广州)博士生叶田、陈思翔等,通讯作者是丁兴号教授,由朱磊助理教授(香港科技大学)等合作完成。



27. DPLUT: Unsupervised Low-light Image Enhancement with Lookup Tables and Diffusion Priors

简介:低光照图像增强(LIE)旨在精确高效地恢复退化图像。近年来,基于深度神经网络的先进LIE技术取得了显著进展,但这些方法通常依赖于大规模的低光/正常光图像对、庞大的网络参数以及高昂的计算资源,这在实际应用中极大限制了其可行性。针对这一问题,我们提出了一种基于扩散先验和查找表的新型无监督LIE框架(DPLUT),以实现高效且高质量的低光图像恢复。该框架包含两个关键模块:光照调整查找表(LLUT)和噪声抑制查找表(NLUT)。LLUT通过无监督损失优化,用于预测逐像素的曲线参数,以动态调整图像的光照范围;NLUT则专注于去除光照增强后产生的放大噪声。为进一步提升噪声抑制性能,我们引入扩散先验,以充分发挥扩散模型在处理噪声方面的优势。大量实验结果验证了该方法的有效性,表明其在视觉质量和计算效率方面显著优于现有的主流方法。

该论文第一作者是厦门大学信息学院信息与通信工程系2023级硕士生林云龙和清华大学博士后富振奇,通讯作者是丁兴号教授,由黄悦教授、涂晓彤助理教授等合作完成。

28. Accelerated Diffusion via High-Low Frequency Decomposition for Pan-sharpening

简介:全色锐化(Pan-sharpening)的目标是保留多光谱图像的光谱信息,同时利用高分辨率全色(PAN)图像中的高频细节来增强其空间分辨率。关键挑战在于如何尽可能保留MS图像的光谱信息和PAN图像的空间细节。扩散模型在图像修复和生成任务中取得了显著效果,但却存在计算资源和时间消耗过大的问题。在本文中,我们设计了一种新颖且计算高效的基于扩散的全色锐化网络,通过分离融合图像的高频和低频分量,实现了加速扩散并降低了任务复杂度。具体而言,利用小波变换的信息保留特性,我们提出了一种基于小波的低频扩散模型(Wavelet-based Low-frequency Diffusion Model,WLDM)。WLDM通过低分辨率多光谱(LRMS)图像生成高分辨率多光谱(HRMS)图像的低频系数。与直接恢复HRMS图像相比,该方法显著降低了计算资源需求和复杂度。此外,我们设计了一个高频信息恢复模块(High-frequency Information Restoration Module,HIRM),通过与PAN图像三方向高频系数的交互,恢复HRMS图像中的高频信息。在三个不同数据集上的广泛实验表明,我们的方法在定量指标、定性指标和推理效率方面均优于现有方法。

该论文第一作者是厦门大学信息学院信息与通信工程系2021级博士生孟戈,通讯作者是丁兴号教授,由黄悦教授、涂晓彤助理教授等合作完成。

29. Sp3ctralMamba: Physics-Driven Joint State Space Model for Hyperspectral Image Reconstruction

简介:高光谱图像(HSI)重建旨在从二维高光谱快照压缩图像(SCI)中恢复原始的三维HSI。实现高保真HSI重建的关键在于设计精细的空间和光谱注意力机制,这对于基于SCI中有限的空间和光谱信息生成细粒度HSI表示至关重要。最近Mamba在建模空间相关性方面展现了出色的性能和效率。其隐式注意机制生成的注意力矩阵数量比Transformer多出三个数量级,大幅提升了HSI重建的性能上限。在本文中,我们提出了一种新颖的联合SSM网络用于HSI重建,命名为Sp3ctralMamba。Sp3ctralMamba结合了频域知识和物理先验。具体而言,我们首先对三维HSI嵌入进行分层分解,以缓解远距离波段对重建的负面影响。接着,设计了一个联合SSM模块S3Mamba(S3MAB),用于对来自不同波段的嵌入进行并行扫描。除了传统的简单扫描,S3MAB还引入了局部扫描方案,以应对光谱信息在空间上的稀疏性对重建带来的挑战。此外,我们结合了频域中的螺旋扫描方案,以增强不同频率信号之间的顺序相关性。最后,引入能量和结构先验在训练过程中约束光谱和空间表示的生成。在模拟和真实数据集上的大量实验表明,Sp3ctralMamba在HSI重建性能上实现了显著提升。

该论文第一作者是厦门大学信息学院信息与通信工程系2021级博士生孟戈,通讯作者是丁兴号教授,由黄悦教授、涂晓彤助理教授等合作完成。




30. LiteSearch: Efficient Tree Search with Dynamic Exploration Budget for Math Reasoning

简介:近期研究表明,树搜索算法(例如蒙特卡洛树搜索)可以显著提高大语言模型(LLM)在复杂数学推理任务上的性能。然而,这些算法往往需要比传统贪婪解码多10倍以上的计算资源,这使得它们难以在实际应用中部署。为解决这一问题,本研究提出了一种新颖的启发式树搜索算法,该算法通过启发式节点选择和节点级探索预算(子节点的最大数量)计算来实现。通过考虑搜索过程中节点对应路径的推理进度以及来自无需过程监督信息训练的价值网络的引导,该算法迭代地选择树节点并动态计算探索预算以进行扩展,直至算法收敛。在GSM8K和TabMWP数据集上进行的实验表明(如图所示),与基线方法相比,LiteSearch不仅显著降低了计算代价,而且性能也能得到有效保持。

该论文的第一作者是厦门大学信息学院人工智能系2022级博士生王安特,共同通讯作者是苏劲松教授和宋林峰高级研究员(腾讯AI Lab西雅图实验室),田野(由腾讯AI Lab西雅图实验室研究员)等共同合作完成。


31. Long-Tailed Out-of-Distribution Detection: Prioritizing Attention to Tail

简介:当前的域外检测方法通常假设域内数据是平衡的,但大多数真实世界数据呈现长尾分布。以往的长尾域外检测方法通常通过减少头部类的语义信息来平衡数据,但这会严重影响域内数据的分类准确性。该任务的挑战在于尾类特征缺乏,容易与域外数据混淆。为了解决这一问题,我们提出了一种新颖的优先关注尾类方法,采用数据增强而非语义减少。我们通过混合von Mises-Fisher分布建模域内数据,并使用温度缩放提升其置信度,从而生成无限的对比对,增强域内数据的语义并促进其与域外数据的区分。此外,我们在推理阶段提出了特征校准方法,提取关注尾类的注意力权重,降低域外数据的置信度,从而提升域外检测能力。实验表明,我们的方法在多个基准测试上超越了当前最先进的方法。

该论文第一作者是厦门大学信息学院2023级硕士研究生何依娜,通讯作者是罗志明副教授。由彭磊、张永存、翁娟娟、李绍滋教授共同合作完成。





上一条: 多媒体可信感知与高效计算教育部重点实验室七篇论文被ICLR 2025录用 下一条:纪荣嵘教授入选2024 IAPR Fellow

关闭